智能论文笔记

自动化车辆功能最佳接受和舒适性的关键因素是驾驶方式。自动化和驱动程序偏爱的驾驶方式之间的不匹配可以使用户更频繁地接管甚至禁用自动化功能。这项工作建议用多模式信号识别用户驾驶样式偏好，因此该车辆可以以连续自动的方式匹配用户偏好。我们对36名参与者进行了驾驶模拟器研究，并收集了广泛的多模式数据，包括行为，生理和情境数据。这包括眼目光，转向抓地力，驾驶演习，制动和节气门踏板输入以及距踏板的脚距离，瞳孔直径，电流皮肤反应，心率和情境驱动驱动环境。然后，我们建立了机器学习模型来识别首选的驾驶方式，并确认所有模式对于识别用户偏好都很重要。这项工作为自动车辆的隐性自适应驾驶风格铺平了道路。

translated by 谷歌翻译

在高度互动的场景中进行运动预测是自主驾驶中的一个挑战性问题。在这种情况下，我们需要准确预测相互作用的代理的共同行为，以确保自动驾驶汽车的安全有效导航。最近，由于其在性能方面的优势和捕获轨迹分布中多模态的能力，目标条件方法引起了人们的关注。在这项工作中，我们研究了目标条件框架的联合轨迹预测问题。特别是，我们引入了一个有条件的基于AutoEncoder（CVAE）模型，以将不同的相互作用模式明确地编码到潜在空间中。但是，我们发现香草模型遭受后塌陷，无法根据需要诱导信息的潜在空间。为了解决这些问题，我们提出了一种新颖的方法，以避免KL消失并诱导具有伪标签的可解释的互动潜在空间。提出的伪标签使我们能够以灵活的方式将域知识纳入有关相互作用的知识。我们使用说明性玩具示例激励提出的方法。此外，我们通过定量和定性评估验证Waymo Open Motion数据集上的框架。

translated by 谷歌翻译

Learning Temporally and Semantically Consistent Unpaired Video-to-video Translation Through Pseudo-Supervision From Synthetic Optical Flow

Kaihong Wang , Kumar Akash , Teruhisa Misu

分类：计算机视觉

2022-01-15

未配对的视频对视频翻译旨在在不需要配对培训数据的情况下将视频翻译在源和目标域之间，从而使其对于实际应用程序更可行。不幸的是，翻译的视频通常会遇到时间和语义不一致。为了解决这个问题，许多现有的作品采用了基于运动估计的时间信息，采用时空一致性约束。然而，运动估计的不准确性导致空间颞一致性的指导质量，从而导致不稳定的翻译。在这项工作中，我们提出了一种新颖的范式，该范式通过将输入视频中的动作与生成的光流合成，而不是估算它们，从而使时空的一致性正常。因此，可以在正则化范式中应用合成运动，以使运动在范围内保持一致，而不会冒出运动估计错误的风险。此后，我们利用了我们的无监督回收和无监督的空间损失，在合成光流提供的伪内观察指导下，以准确地在两个域中实现时空一致性。实验表明，在各种情况下，我们的方法在生成时间和语义一致的视频方面具有最先进的性能。代码可在以下网址获得：https：//github.com/wangkaihong/unsup_recycle_gan/。

translated by 谷歌翻译

视觉和语言导航（VLN）是人工智能领域的一个具有挑战性的任务。虽然在过去几年中，在这项任务中取得了大规模进展，但由于深远和语言模型的突破，仍然是突破，仍然很难建立可以概括和人类的VLN模型。在本文中，我们提供了一种改进VLN模型的新视角。基于我们发现，即使它们的成功率相对相同，同一VLN模型的快照表现出显着不同，我们提出了一种基于快照的合并解决方案，该解决方案利用了多个快照之间的预测。构建在现有最先进的（SOTA）型号$ \ CirclearRowright $ Bert的快照和我们的过去动作感知修改，我们所提出的集合在导航错误中实现了新的SOTA性能（NE）和成功由路径长度（SPL）加权。

translated by 谷歌翻译